Velika količina neuniformnih rešenja u pdf formatu.
Nazivi podnosilaca projekata koji su zavedeni pod različitim imenima u rešenjima.
Nepostojanje informacija u rešenjima o medijima u kojima će se projekat realizovati.
Pretraživost APR je limitirana, kvalitet podataka za mašinsko učitavanje takođe.
Progutana slova, nepotrebni razmaci, znaci navoda (spas u Open Refine-u).
Manjak vremena da se sve još jednom proveri. :)
Postaviti što jednostavniju metodologiju za prikupljanje podataka.
Ukoliko istraživači naiđu na nešto što je u rešenjima što nije pomenuto u metodologiji obavezno da pitaju šta da rade.
Izazovi APR-a delom rešeni uz pomoć alata koji omogućava lakše pretraživanje.
Objasniti istraživačima zašto je važno da podaci budu ujednačeni.
## Rows: 11,677
## Columns: 10
## $ `ORGAN KOJI RASPISUJE KONKURS/OPŠTINA` <chr> "Ada", "Ada", "Ada", "Ada", "A…
## $ `MATIČNI BROJ GRADA/OPŠTINE` <dbl> 80012, 80012, 80012, 80012, 80…
## $ GODINA <dbl> 2015, 2016, 2017, 2018, 2019, …
## $ `PODNOSILAC PROJEKTA` <chr> NA, NA, NA, "PANONIJA MEDIA DO…
## $ `MATIČNI BROJ PODNOSIOCA` <chr> NA, NA, NA, "21346365", "21443…
## $ `NAZIV MEDIJA` <chr> NA, NA, NA, "Produkcija", "Pro…
## $ `NAZIV PROJEKTA` <chr> "Sredstva nisu dodeljena", "Sr…
## $ `TEMA PROJEKTA` <chr> NA, NA, NA, "Informativni prog…
## $ `SREDSTVA U DINARIMA` <dbl> 0, 0, 0, 900000, 500000, 20000…
## $ `SREDSTVA U EVRIMA` <dbl> 0, 0, 0, 7610, 4243, 1698, 458…
Merljive mogu se izraziti numerički (Numeric):
Integer: Godine, broj pasa, mačaka
Double (Continuous): Visina, težina
Atributivne mogu se izraziti u vidu svojih karakteristika ili atributa:
Character: Crno, žuto, belo
Factor (Ordinal): Hladno, mlako, toplo, vruće
“Retko kada ćete naići na dataset koji možete odmah da analizirate. Biće vam potrebno između 50 i 80 % vremena da očistite i pripremite podatke za analizu”
— brojni saborci koji se bave analizom podataka :)
Ukoliko vaš dashboard ima shiny elemente možete da je objavite preko njihovog servera Shinyapps.io